인공지능 & 소프트웨어

특허 관점에서의 확산 모델 - 이미지 생성을 넘어서

1.png

Summary

디퓨전 모델과 관련하여 출원된 특허들을 분석하고, 디퓨전 모델과 관련된 기술의 권리화 동향 및 향후 전망을 전달하는 칼럼 - 두번째

Midjourney, DALL-E 2, 스테이블 디퓨전과 같은 생성 모델들을 통해 누구나 쉽게 인공지능을 활용하여 그럴듯한 이미지를 만들 수 있는 환경이 갖추어졌습니다. 하지만, 이미지 이외에도 비디오나 3D 모델링의 경우에도 디퓨전 모델이 활용될 수 있을까요?

본 칼럼에서는 이전 1회차 칼럼에 이어 생성 모델 중 최근 활발하게 연구되고 있는 ‘디퓨전 모델’과 관련하여 이미지 외에도 다양한 도메인(domain)에 대해 출원된 특허들을 분석하고, 디퓨전 모델 관련 기술의 연구 동향 및 전망에 대해 살펴보고자 합니다.

 

오디오 도메인에서 디퓨전 모델을 활용하는 특허

최근 디퓨전 모델을 이미지 도메인 뿐만 아니라 다른 데이터 도메인에도 활용하려는 시도들이 여럿 등장하고 있습니다. 비디오, 3D, 오디오와 같은 도메인이 대표적이라고 할 수 있지요. 아래에서는 파이특허가 선정한 샘플 특허를 통해, 이미지 외 다른 도메인에  어떤 방법으로 디퓨전 모델이 활용되고 있는지 살펴보도록 하겠습니다.

 

먼저 소개드릴 특허는 서울대학교에서 출원하여 등록된  KR 2023-0032673 “생성 속도를 조절할 수 있는 음성 합성 시스템”으로, 오디오 도메인에서 디퓨전 모델을 적용한 특허입니다.

해당 특허는 텍스트를 입력받고 텍스트에 부합하는 음성을 합성하는 모델에 관한 것으로, 모델은 크게 스텝 인코더, 텍스트 인코더, 디코더로 구성되어 있습니다. 디코더는  n번째 가우시안 노이즈를 입력받아 n-1번째 가우시안 노이즈를 출력하는데, 이 과정에서 디퓨전 타임스텝의 정보가 담긴 ‘스텝 임베딩’과 생성하고 싶은 음성의 condition에 해당하는 ‘텍스트 임베딩’이 같이 활용됩니다. 스텝 임베딩과 텍스트 임베딩은 각각 스텝 인코더와 텍스트 인코더라는 별도의 모듈에서 인코딩됩니다. 이러한 구성은 디퓨전 모델이 conditional generation을 수행하는 전형적인 방법에 해당합니다.

 

또한, 해당 발명에서는 스텝 인코더 ‘가속화 샘플링 과정’에서 각각의 타임 스텝에서 생성된 노이즈가 낀 학습 데이터로 학습하되, 학습 종료 후 데이터를 생성하는 과정에서 일정한 수의 타임 스텝을 건너뛰어 데이터 생성 속도를 높이는 DDIM(Denoising Diffusion Implicit Model)의 아이디어를 차용하였습니다. 잠깐, DDIM은 또 뭔가요?

 

DDPM(Denoising Diffusion Probabilistic Model)의 등장으로, 디퓨전 모델을 활용하여 안정적인 품질의 데이터를 생성할 수 있게 되었습니다. 하지만 DDPM의 중심 아이디어 중 하나인 마르코프 체인(Markov chain)의 특성 즉 ‘x_t의 값은 x_t-1의 값에만 영향을 받는 특성’으로 인하여 모델의 데이터 생성 과정 중 모든 타임 스텝에 대해 중간 데이터를 생성해야 했고, 따라서 데이터의 생성 속도가 느리다는 문제가 부각되었습니다. 이러한 문제를 해결하기 위해 고안된 모델이 바로 DDIM(논문링크)입니다. DDIM에서는 Markov chain의 특성을 엄격하게 적용하는 것이 아니라  forward process에서 x_t가 x_t-1뿐만 아닌 x_0의 영향을 받도록 설계하였습니다.

 

데이터 생성 시 DDIM은 x_t로부터 x_0를 예측하고, 예측한 x_0에서 다시 x_t-1을 생성할 수 있습니다. 이 경우 x_0에서 x_t-1을 예측하는 것과 x_0에서 x_t-2를 예측하는 것 사이에 어느 정도 일관성이 보장되었기 때문에, 중간 스텝을 건너뛰어 x_0에서 바로 x_t-2를 예측해도 생성된 데이터의 품질이 크게 떨어지지 않았습니다. T=1000이라고 할 때 DDPM의 경우 최종 데이터를 생성하기 위해 1000개의 중간 데이터를 생성해야 했지만 DDIM의 경우 한 스텝씩 건너뛰면 500개, 두 스텝을 건너뛰면 250개의 중간 데이터만을 생성해도 되는 것이죠.

 

다시 특허로 돌아가면, 해당 특허에서는 매개변수(감마)의 크기가 변경됨에 따라 음성 합성 모델이 타임 스텝을 건너뛰면서 샘플링을 할 수 있도록 구성하였습니다.  이렇게 설계하는 경우 타임 스텝을 건너뛰는 감마의 수가 크면 타임 스텝 간격이 넓어져 음성 합성의 퀄리티가 떨어지고, 반대로 타임 스텝을 건너뛰는 감마의 수가 작으면 타임 스텝 간격이 좁아져 음성 합성의 퀄리티가 높아지게 됩니다. 이와 같이 설계함으로써 샘플링 속도와 합성된 음성의 품질을 사용자의 필요에 따라 조절하는 것이 가능합니다. 또한, 종래의 음성 합성 모델과 비교하여 작은 모델 사이즈로도 충분한 퀄리티의 합성된 음성을 획득할 수 있습니다.

 

해당 특허의 독립항인 청구항 제1항은 다음과 같이 구성되어 있습니다.

생성 속도를 조절할 수 있는 음성 합성 시스템(100)으로서,


텍스트(text) 또는 포님(phoneme) 시퀀스를 인풋으로 받아서 텍스트 임베딩을 출력하는 텍스트 인코더(Text Encoder)(110);


디퓨전 타임스텝을 인풋으로 받아서 모델이 몇 번째 타임스텝을 모델링하는지 알려주기 위한 스텝 임베딩을 출력하는 스텝 인코더(Step Encoder)(120); 및


n번째 가우시안 노이즈를 입력으로 받고, 상기 텍스트 임베딩(110)의 텍스트 임베딩과 상기 스텝 인코더(120)의 스텝 임베딩을 컨디션(condition)으로 받아서 특정 (n-1)번째 타임스텝의 가우시안 노이즈를 출력하는 디코더(Decoder)(130)를 포함하는 것을 특징으로 하는, 생성 속도를 조절할 수 있는 음성 합성 시스템.

청구항의 문언 자체도 길이가 짧은 편이고, DDIM과 같이 데이터 생성 속도를 조절할 수 있는 디퓨전 모델에 필요한 필수적인 구성만이 포함되어 있습니다. 이를 고려할 때, 해당 특허는 실질적인 권리범위가 매우 넓게 작성된 위력적인 특허라고 판단됩니다. 따라서 텍스트를 입력받아 음성을 합성하는 기술을 서비스에 활용하고자 하는 경우 해당 특허에 대한 침해가 성립하지 않도록 세심한 회피설계가 필요해 보입니다.

 

3D 도메인에서 디퓨전 모델을 활용하는 특허

다음으로, 중국의 NANCHANG HANGKONG 대학에서 출원하여 등록된 특허(등록번호  CN 116310153) “Single-view color 3d point cloud reconstruction methods, systems, storage media, and computers”를 살펴보겠습니다. 해당 특허는 3D 도메인에서 디퓨전 모델을 활용한 특허로, 물체의 입체 정보가 아닌 단일 시점의 이미지(2D)이미지를 입력받아 해당 물체의 컬러 포인트 클라우드(물체의 표면을 나타내는 점들의 집합) 데이터를 생성하는 방법에 대해 다루고 있습니다.

 

해당 특허에서 컬러 포인트 클라우드 생성 방법은 1) 디퓨전 모델을 활용하여 물체의 단일 시점 이미지로부터 물체의 포인트 클라우드를 생성 2) 물체의 단일 시점 이미지의 색상 정보(color implicit code)를 활용하여 포인트 클라우드의 색상 정보를 생성 3) 포인트 클라우드 정보와 포인트 클라우드의 색상 정보를 활용하여 최종적으로 포인트 클라우드 이미지를 렌더링하는 단계 로 구성되어 있습니다.

 

최근 학습된 디퓨전 모델을 활용하여 단일 시점의 이미지로부터 물체의 3D 정보를 추론하는 데 있어서 괄목할 만한 성과를 거둔 몇 가지 논문이 발표되었습니다. 해당 특허 또한 3D 정보 추론에서 디퓨전 모델이 있음에 착안하여 출원된 것으로, 디퓨전 모델의 확장 가능성에 대한 가능성을 제시해주고 있습니다.

 

해당 특허의 독립항인 청구항 제1항(영문 번역)은 다음과 같습니다.

A single-view color three-dimensional point cloud reconstruction method, wherein, comprising:


obtain any image of interest, and use an image editor to image edit the image of interest to obtain shape implicit encoding and color implicit encoding;


Point cloud reconstruction is carried out based on the diffusion model and the shape implicit coding to obtain the target point cloud with the target shape, and the color estimation is made for the point cloud reconstruction according to the color implicit coding to obtain the point cloud color of each point cloud in the target point cloud;


The sampling point position is obtained according to the camera parameters corresponding to the target point cloud, and the bulk density and radiometry of each sampling point location are calculated based on the target point cloud and the point cloud color of each point cloud in the target point cloud to render the corresponding predicted point cloud image;


Taking the real object image as a condition, the point cloud color and point cloud shape of the predicted point cloud image are optimized, and the results of the optimized predicted point cloud image are fine-tuned to realize the three-dimensional point cloud reconstruction of the real object image.

청구항의 내용을 살펴보면 전반적으로 2D 이미지를 조건으로 하여 해당 물체의 색을 추정하고 포인트 클라우드 데이터를 생성하는 필수적인 구성만을 포함하고 있습니다. ‘재구성된 포인트 클라우드 데이터를 최적화하는 구성’을 포함하고 있으나, 이러한 구성은 넓은 의미로 해석될 수 있으므로 해당 특허의 실질적인 권리범위는 좁지 않은 것으로 판단됩니다. 따라서 위에서 살펴본 특허와 마찬가지로 이미지로부터 포인트 클라우드 데이터를 생성하는 기술을 사용할 시 해당 특허에 대한 침해가 성립하지 않도록 세심한 회피설계가 필요해 보입니다.

 

그런데, 이미지 이외의 다른 도메인에 디퓨전 모델을 활용하는 것은 쉬운 일만은 아닙니다. 1회차 칼럼을 다시 참고하시면 이미지 도메인과 비교하여 다른 도메인에서 출원된 특허의 수는 현저히 적은 것을 알 수 있습니다. 데이터의 어떤 특성이 이미지 외 도메인에서 디퓨전 모델의 활용을 어렵게 만드는 것일까요? 그런 문제를 어떤 방식으로 해결할 수 있을까요?

 

비디오 도메인에서 디퓨전 모델을 활용하는 특허

이와 관련하여, 마지막으로 소개드릴 특허는 NANJING ZHILUN DIGITAL TECH 사가 출원한 “Action video generation method based on diffusion model”라는 명칭의 중국 공개 특허(공개번호 CN 115,761,593)입니다. 이 특허는 디퓨전 모델을 활용한 비디오 생성에 관한 내용을 다루고 있습니다.

 

일반적으로 이미지를 생성하는 디퓨전 모델은 노이즈를 조금씩 더하는 과정을 보여준 후 이미지에 대해 노이즈를 조금씩 빼는 과정을 통해 픽셀들간의 상관관계를 학습하였습니다. 상관관계를 학습한 디퓨전 모델은 노이즈를 입력받아 노이즈가 제거된 이미지를 생성할 수 있었습니다. 

 

하지만, 비디오는 이미지와 큰 차이점이 존재합니다. 바로 비디오는 여러 개의 이미지가 시계열 순서로 배열되어 있다는 점입니다. 따라서 자연스러운 비디오를 생성하기 위해서는 하나의 이미지 내에서 픽셀 간의 관계뿐만이 아니라 특정 프레임의 전후에 오는 이미지의 특징들도 고려하여야 하므로, 비디오 생성은 이미지 생성과 비교하여 상대적으로 어려운 작업에 해당합니다. 예를 들어, 시공간적 특징들을 고려하지 않고 비디오를 생성하게 되면 “공을 멀리 던졌을 때, 공이 던져진 손에서 멀어질수록 작게 표현되어야 하는데 오히려 커지도록 표현되어 이질감이 크게 느껴지는 문제”등이 발생할 수 있습니다.

 

이와 같이, 이미지를 생성하는 디퓨전 모델을 이용하여 비디오를 생성하는 경우 다음 시점에서 발생할 수 있는 동작 상태를 예측할 수 없는 문제가 있었습니다.

 

따라서, 해당 발명은 이러한 문제를 해소하기 위해서, 목표하는 동작이 포함된 비디오들로부터 3D 합성곱(convolution) 신경망을 이용하여 대상이 목표하는 동작(action)을 수행할 수 있는 높이와 폭 범위, 시간적, 공간적 특징을 획득하고 이를 학습하는 방법을 이용하였습니다. 

<2D conv과 3D conv의 비교(Source: https://arxiv.org/pdf/1412.0767.pdf)>

만약, 비디오의 특징을 추출하기 위해 2D 합성곱 신경망을 이용하는 경우, 2D 합성곱 신경망의 아웃풋은 2D이기 때문에 비디오의 시간적 정보가 보존되지 않습니다. 

반면, 3D 합성곱 신경망의 경우 출력이 3D인 volume형태이기 때문에 높이와 폭의 정보 외에도 비디오의 시간적 정보가 보존될 수 있습니다.

 

예를 들어, 공을 던지는 비디오의 경우

 

3D 합성곱 신경망을 활용하는 경우 “던져진 공이 날아가는 비디오”에서 시간의 흐름에 따라 프레임이 지나갈수록 공이 작아지고, 팔의 회전 범위가 팔의 길이를 넘어서지 않는 시간적, 공간적 특징이 획득될 수 있습니다. 

반면, 2D 합성곱 신경망을 활용하는 경우 “던져진 공이 날아가는 비디오”에서 시간적인 선후관계를 고려하지 않아 손과 공의 위치에 대한 공간적 특징만이 획득될 수 있습니다. 

 

즉, 해당 발명은 3D 합성곱 신경망을 이용하여 목표하는 동작별로 대상의 지역적 특징과 비디오의 시공간적 특징을 획득함으로써, 비디오를 생성하는 과정에서 대상이 목표하는 동작(action)의 수행 가능한 높이와 폭 범위, 시간적, 공간적 특징이 고려된 자연스러운 비디오를 생성할 수 있습니다. 

 

 해당 특허의 독립항인 청구항 제1항은 다음과 같이 작성되어 있습니다.

An action video generation method based on diffusion model, wherein, including steps:


S1. Collect the video of the target action, and preprocess the video to obtain the video frame sequence;


S2. Identify the video frame sequence with the corresponding target in the video frame sequence;


S3. Use three-dimensional convolutional neural network to extract regional features of the target and video spatiotemporal feature map;


S4、Reconstruct the temporal series and spatial connection relationship of the target;


S5. Identify the video frames of different timing of the target through the intelligent learning machine, and classify and name the target action;


S6. According to the preset action video generation time, make dynamic videos with different naming time periods for the same target;


S7. According to the classification and naming of the input target and action, output the dynamic video of the time period before and after the same target naming.

청구항 제1항은 다음과 같이 크게 4 단계로 구성되어 있습니다. 

 

(1) 비디오 프레임 시퀀스를 타겟과 대응시키고, 3D 합성곱 신경망을 통해 타겟 및 비디오의 시공간적 특징맵을 생성

(2) 대상의 시간적 순서와 공간적 연결관계를 재구성하고, 인공지능 학습 모델을 통해 대상의 다른 타이밍의 비디오 프레임을 식별하고, 대상의 동작을 분류

(3) 미리 설정된 동작 비디오 생성 시간에 따라 동일한 대상에 대한 다른 시간대의 비디오를 생성

(4) 입력된 대상과 동작의 분류 및 명칭에 따라, 동일한 대상의 이전과 이후의 시간대의 동작(action) 비디오를 제공

 

앞서 살펴본 이미지와 달리 비디오는 시공간적 특징들을 추가적으로 포함하고 있습니다. 이러한 시공간적 특징들을 고려하지 않고 비디오를 생성하게 되면 “공을 멀리 던졌을 때 공이 던져진 손에서 멀어질수록 작게 표현되어야 하는데 오히려 커지도록 표현되거나 하는 문제”가 발생할 수 있습니다. 

 

해당 특허는 (1) 비디오 프레임 시퀀스를 타겟과 대응시키고, 3D 합성곱 신경망을 통해 타겟 및 비디오의 시공간적 특징맵을 생성하는 구성을 통해 대상이 수행하는 동작(action)이 수행될 수 있는 높이와 폭 범위, 시간적, 공간적 특징을 획득할 수 있습니다.  

 

예를 들어, 공을 던지는 비디오의 경우 

3D 합성곱 신경망을 활용하는 경우 “던져진 공이 날아가는 비디오”에서 시간의 흐름에 따라 프레임이 지나갈수록 공이 작아지고, 팔의 회전 범위가 팔의 길이를 넘어서지 않는 시간적, 공간적 특징이 획득될 수 있습니다. 

 

또한, (2) 대상의 시간적 순서와 공간적 연결관계를 재구성하고, 인공지능 학습 모델을 통해 대상의 다른 타이밍의 비디오 프레임을 식별하고, 대상의 동작을 분류함으로써 재구성된 대상이 이후 재생 중에 비디오 프레임의 타이밍이나 공간 상에서 부자연스러워지는 것을 방지할 수 있습니다. 예를 들어, 공(대상)을 던졌을 때(목표 동작) 공이 손에서 멀어질수록 작게 표현되고, 던져진 방향으로 계속 날아가도록 던져진 공의 시간적 순서와 공간적 연결관계를 재구성할 수 있습니다.

 

추가적으로, (3)  미리 설정된 동작 비디오 생성 시간에 따라 동일한 대상에 대한 다른 시간대의 비디오를 생성하고, (4) 입력된 대상과 동작의 분류 및 명칭에 따라, 동일한 대상의 이전과 이후의 시간대의 동작(action) 비디오를 제공함으로써 목표하는 대상과 목표하는 명칭을 가진 동작의 비디오를 획득할 수 있습니다. 

 

구체적으로, 해당 특허를 통해

“공을 던지는 비디오”가 두 프레임 밖에 없는 경우에도,

“공을 던지는 비디오”에 대한 더 긴 버전의 비디오를 획득할 수 있습니다.

 

해당 특허의 구성들에 대해 살펴보면, (1)의 3D 합성곱 신경망을 통해 타겟 및 비디오의 시공간적 특징맵을 생성하는 구성 비디오로부터 시공간적 특징을 획득하는 과정에서 일반적으로 사용될 수 있습니다. 

추가적으로, (3)  미리 설정된 동작 비디오 생성 시간에 따라 동일한 대상에 대한 다른 시간대의 비디오를 생성하고, (4) 입력된 대상과 동작의 분류 및 명칭에 따라, 동일한 대상의 이전과 이후의 시간대의 동작(action) 비디오를 제공하는 구성 Imagen Video와 같이 텍스트 프롬프트(text prompt)를 통해 동작의 명칭을 입력하여 비디오를 생성하는 방법에 그대로 적용될 수 있는 구성들을 개시하고 있는 것으로 보입니다. 

다만, (2)의 대상의 시간적 순서와 공간적 연결관계를 재구성하고, 인공지능 학습 모델을 통해 대상의 다른 타이밍의 비디오 프레임을 식별하고, 대상의 동작을 분류하는 구성은 

인공지능 학습 모델을 통해 대상의 다른 타이밍의 비디오 프레임을 식별하는 단계를 수행하지 않음으로써 회피가 가능할 것으로 사료됩니다.  

 

지금까지 오디오, 3D, 비디오 도메인에서 디퓨전 모델을 활용한 특허를 살펴보았습니다. 이미지보다 더 복잡한 정보들로 구성된 데이터 도메인에서 디퓨전 모델을 활용하기 위해서는 데이터 도메인의 특성에서 기인하는 난점을 해결할 필요성이 있습니다. 최근 출원된 특허들에서는 이러한 난점을 극복하기 위한 고유의 해결 방법을 도입함으로써 디퓨전 모델의 활용 가능성이 더욱 넓어지고 있다고 볼 수 있습니다.


다음 칼럼은 디퓨전 모델에 대한 마지막 칼럼으로, 현재까지의 상황을 토대로 미래에 디퓨전 모델과 관련된 어떤 특허가 출원될 것인지 그 전망에 대해 다루고자 합니다. 많은 관심 부탁드립니다.

소프트웨어특허특허 교육분석리포트트렌드

"질문이 있으세요?"

"질문이 있으세요?"